SPICE-Semantic Pseudo-Labeling for Image Clustering

一句话总结

根据kmeans等自创了一种聚类方法,挺不错的
Pasted image 20240422175111.png
具体来说,我们将网络训练分为三个阶段,如图3所示。首先,我们通过实例级对比学习来优化特征模型F,该学习强制来自同一图像不同变换的特征相似,并且来自不同图像的特征相互区分。其次,我们用提出的原型伪标记算法优化集群头C,同时冻结在第一阶段学习的特征模型。第三,我们结合提出的可靠伪标记算法来优化特征模型和簇头。

第二部分

其中表示聚类中,我们要计算和聚类中心的余弦相似度,并选择近的样本给,表示为:
具体的一个示例如下:
Pasted image 20240422180502.png
聚类损失为:换句话说,使得cluster的标签尽量和真实的标签()相同
其中,是交叉熵损失函数,
我们使用双softmax函数来计算

第三部分:

可靠伪标签

我们选择样本近的样本,定义为.然后,语义连续比表示为:
𝟙给定预定义的阈值,如果,那么样本就被视为值得信赖的样本,被用于联合训练.否则,这个样本标签就会被忽视.这样,我们就得到了可信赖的子集:

联合训练

我们将做如此预测:
其中,是置信度阈值.接下来,整个网络就可以进行联合优化:

𝟙